অ্যাপাচি টিকা (Apache Tika) REST API-র মাধ্যমে সহজেই অন্যান্য অ্যাপ্লিকেশন বা সার্ভিসের সাথে সংযোগ স্থাপন করে ডকুমেন্ট প্রসেসিং এবং টেক্সট এক্সট্র্যাকশন করতে পারে। REST API ব্যবহার করে আমরা ফাইল আপলোড করে মেটাডেটা (Metadata) এবং টেক্সট (Text) এক্সট্র্যাক্ট করতে পারি।
Tika Server চালু করা
Tika REST API ব্যবহার করতে হলে প্রথমে Tika Server চালু করতে হবে।
Tika Server ডাউনলোড ও চালু করা
- Apache Tika Server JAR ফাইল ডাউনলোড করুন: Apache Tika Download
- নিচের কমান্ড দিয়ে সার্ভার চালু করুন:
java -jar tika-server-standard-2.x.jar
উপরের কমান্ডের মাধ্যমে Tika Server 9998 পোর্ট এ রান করবে (ডিফল্ট পোর্ট)।
Tika REST API Integration উদাহরণ
REST API ব্যবহার করে ফাইল থেকে টেক্সট এবং মেটাডেটা এক্সট্র্যাক্ট করা যায়। এখানে একটি উদাহরণ দেওয়া হলো যেখানে Python এবং cURL ব্যবহার করা হয়েছে।
উদাহরণ: Python দিয়ে Tika REST API
Python ব্যবহার করে Tika REST API এর মাধ্যমে ফাইল প্রসেস করার উদাহরণ:
প্রয়োজনীয় প্যাকেজ ইন্সটল
pip install requests
কোড উদাহরণ:
import requests
# Tika Server এর URL
tika_server_url = "http://localhost:9998/tika"
# প্রসেস করতে চাওয়া ফাইল
file_path = "example.pdf"
# ফাইলটি Tika Server এ পাঠিয়ে টেক্সট এক্সট্র্যাক্ট করা
with open(file_path, 'rb') as file:
headers = {'Accept': 'text/plain'}
response = requests.put(tika_server_url, headers=headers, data=file)
# সার্ভার থেকে রেসপন্স চেক করা
if response.status_code == 200:
print("Extracted Text:")
print(response.text)
else:
print(f"Error: {response.status_code}")
উদাহরণ: cURL ব্যবহার করে REST API কল
cURL এর মাধ্যমে Tika Server এ ফাইল পাঠিয়ে টেক্সট এবং মেটাডেটা এক্সট্র্যাক্ট করা যায়।
টেক্সট এক্সট্র্যাকশন
curl -T example.pdf http://localhost:9998/tika --header "Accept: text/plain"
মেটাডেটা এক্সট্র্যাকশন
curl -T example.pdf http://localhost:9998/meta
রেসপন্স আউটপুট
- টেক্সট আউটপুট (Text Extraction):
This is an example document.
It contains sample text.
- মেটাডেটা আউটপুট (Metadata Extraction):
{
"Content-Type": "application/pdf",
"Creation-Date": "2024-06-01T10:00:00Z",
"X-Parsed-By": ["org.apache.tika.parser.DefaultParser"],
"Author": "John Doe",
"Producer": "Acrobat PDFWriter"
}
সার্ভারের রেসপন্স টাইপ
Tika REST API ব্যবহার করে Accept Header সেট করে বিভিন্ন আউটপুট ফরম্যাট পাওয়া যায়।
| Accept Header | আউটপুট |
|---|---|
text/plain | শুধুমাত্র প্লেইন টেক্সট |
application/json | JSON ফরম্যাটে মেটাডেটা |
application/xml | XML আকারে আউটপুট |
সারাংশ
Apache Tika REST API ব্যবহার করে সহজেই ফাইল প্রসেসিং ও ডেটা এক্সট্র্যাকশন করা যায়। সার্ভারটি চালু করে HTTP PUT/POST রিকোয়েস্টের মাধ্যমে বিভিন্ন ধরনের ফরম্যাট থেকে টেক্সট এবং মেটাডেটা সংগ্রহ করা সম্ভব। Python, cURL এবং অন্যান্য টুল দিয়ে সহজেই এটি ইন্টিগ্রেট করা যায়।
Read more